BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
提案手法は主に2つの機構で構成される
1. Multimodal mixture of Encoder-Decoder (MED)
https://gyazo.com/782b3acbf1406632a3ae1d16055465e8
2. Captioning and Filtering (CapFilt):
https://gyazo.com/4eb382f94797e2edf510e49dc6e84fbf
なので, キャプションの取捨選択を自動で行う機構を導入
流れ
1. ノイズを含む元のデータセットでMEDを学習
2. 事前学習されたMEDを用いてCapFiltを実行
3. CapFiitによって得られたデータセットを用いて再度MEDを学習
MED
Image-TextContrastiveLoss(ITC)
画像特徴量と言語特徴量が近づくように学習
Image-TextMatchingLoss(ITM)
画像とテキスト本当にペアであるかを二値分類
LanguageModelingLoss(LM)
入力画像に対する真のキャプションと, 生成されたキャプションとのクロスエントロピー
CapFilt
上に太文字書いたITMを使って画像とテキストが本当にペアであるかを二値分類
ペアでないと判定されたものはデータセットから排除することでデータセットをクリーニング
https://gyazo.com/2bf532d58a8af4320da021d9d3d76bdd